2024/10/07

「世界上所有的知識」該如何表示?「人物設定+語言模型」可以嗎?

https://huggingface.co/papers/2406.20094

隨著語言模型越來越大,需要的訓練資料也越來越多,我們面臨著「資料不夠用」的窘境;而許多研究也指出,如果直接使用語言模型生成的資料來訓練語言模型,會造成意料之外的問題(Will we run out of data? Limits of LLM scaling based on human-generated data)。

Tencent AI Lab 前陣子發表了一篇技術報告,Scaling Synthetic Data Creation with 1,000,000,000 Personas,雖然說是打著「生成高品質內容」的招牌,但個人覺得更有趣的是他們的一個觀點:透過10億個不同的人物設定,搭配大語言模型,可以視為對全世界的所有文字資訊的一種壓縮。(如圖)


個人對「表徵學習」(representation learning)這個研究主題很有興趣,主要的原因是這件事情反映出我們對「外在世界」的理解、詮釋與建構。我相信「每個人的觀點都不盡相同」在現代社會是屬於常識,但這些觀點的形成與運作方式,在人類這個群體裡,甚或是與其他物種之間,是否有共通之處,則是解答「人之所以為人」的有趣課題。

我個人覺得這個 Persona-Hub 的有趣之處,在於對「如何表徵知識」提出了別出心裁的觀點:人物定加上語言模型。這跳脫了傳統上以「某個潛空間latent space)的向量」作為表徵的限制,而採取「兩個潛空間(人物跟語言)的捲積」作為新的路線。而在數學上,能從「一個」跳出來,「兩個」其實就意味著「多個」,那就為這個問題開啟了一扇新的門。


這篇研究報告採用的方法也相當有趣,10億個人物設定的一部份也公開在 GitHub 上,這對需要大量使用人物誌的單位來說,應該是個不錯的應用案例。

沒有留言: